'''
Created on 2017年9月12日

@author: zhangyanfeng
'''

'''
flatMap() 的函数被分别应用到了输入 RDD 的每个元素上。不
过返回的不是一个元素， 而是一个返回值序列的迭代器。输出的 RDD 倒不是由迭代器组
成的。我们得到的是一个包含各个迭代器可访问的所有元素的 RDD。 flatMap() 的一个简
单用途是把输入的字符串切分为单词，如例 3-29 至例 3-31 所示
'''

from pyspark import SparkContext, SparkConf, rdd

sc = SparkContext( 'local', 'pyspark')

lines = sc.parallelize(["hello world","hi"])
words = lines.flatMap(lambda line: line.split(" "))
# print(words.first())

print(words.collect())

